2025.11.24 | 开源7B模型刷新多模态推理；GeoVista小模型精准地理定位

Update: 2025-11-24

Description

本期的 15 篇论文如下：

[00:21 ] 🧠 OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe（OpenMMReasoner：以开放通用方案推动多模态推理前沿）

[01:04 ] 🌍 GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization（GeoVista：用于地理定位的Web增强智能视觉推理）

[01:41 ] 🎯 SAM 3: Segment Anything with Concepts（SAM 3：基于概念的通用分割模型）

[02:31 ] 📊 Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story（揭示文本的内在维度：从学术摘要到创意故事）

[03:09 ] 🧠 O-Mem: Omni Memory System for Personalized, Long Horizon, Self-Evolving Agents（O-Mem：面向个性化、长周期、自进化智能体的全能记忆系统）

[03:43 ] 🦜 Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs（鹦鹉：输出真相的说服与一致性鲁棒性评级——一个面向大语言模型的谄媚鲁棒性基准）

[04:26 ] 🧠 RynnVLA-002: A Unified Vision-Language-Action and World Model（RynnVLA-002：统一的视觉-语言-动作与世界模型）

[05:19 ] 🧠 VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models（VisMem：潜在视觉记忆解锁视觉语言模型潜力）

[05:51 ] 🌍 WorldGen: From Text to Traversable and Interactive 3D Worlds（WorldGen：从文本到可遍历交互式3D世界）

[06:34 ] 🎨 Loomis Painter: Reconstructing the Painting Process（Loomis Painter：重建绘画过程）

[07:06 ] 🔮 Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight（Mantis：具有解耦视觉预测能力的多功能视觉-语言-动作模型）

[07:48 ] 🎨 InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization（InstructMix2Mix：通过多视图模型个性化实现一致的稀疏视图编辑）

[08:21 ] 🔬 OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists（全能科学家：迈向人类与AI科学家共同进化的生态系统）

[09:07 ] 🧬 MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging（MergeDNA：基于动态标记化的上下文感知基因组建模）

[09:41 ] 🔍 Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination（Video-R4：通过视觉反刍增强文本丰富视频推理）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

2025.12.01 | Z-Image小参高效夺冠；REASONEDIT先思后画登顶

2025-12-0109:33

【周末特辑】11月第5周最火AI论文 | 自适应正交稳训练；GAM代理即搜忆

2025-11-2911:54

2025.11.28 | 潜在奖励模型提速降显存；画布多模态生成碾压SOTA

2025-11-2804:47

2025.11.27 | 俄语多模态评测补空白；潜协作提速14%

2025-11-2711:03

2025.11.26 | 大模型育种进化框架开源；MedSAM-3听懂临床精准分割

2025-11-2611:05

2025.11.25 | 即时编译让记忆无损；AutoEnv自动挑环境提两成

2025-11-2510:01

2025.11.24 | 开源7B模型刷新多模态推理；GeoVista小模型精准地理定位

2025-11-2410:42

【周末特辑】11月第4周最火AI论文 | Kandinsky 5.0开源全家桶；MiroThinker开源智能体

2025-11-2210:19

2025.11.21 | V-ReasonBench考视频模型推理；Step-Audio-R1让语音越“想”越强

2025-11-2109:54

2025.11.20 | 视频模型拍推理链，迷宫百发百中；无标注左右互搏，视觉模型自学跃升

2025-11-2003:36

2025.11.19 | 像素演员难推理；视觉误导测真章

2025-11-1908:19

2025.11.18 | RL奥赛夺金；Uni-MoE 2.0全能跃升

2025-11-1810:08

2025.11.17 | RoPE去噪救长文本；AI速筛离子液体

2025-11-1710:06

【周末特辑】11月第3周最火AI论文 | 3D游戏智能体开源方案；桌面AI少样本精准操控

2025-11-1511:34

2025.11.14 | UniVA四合一开源视频通才；Depth Anything 3单ViT通吃3D

2025-11-1403:25

2025.11.13 | 原神数据炼成7B通用AI；零训练轨迹秒变视频遥控器

2025-11-1306:28

2025.11.12 | 1.5B小模型反超671B大模型；多智能体质检聊天机器人

2025-11-1206:56

2025.11.11 | 小窗口勤总结刷新深度研究；先广撒网再啃难题激活代码竞赛

2025-11-1109:58

2025.11.10 | DeepEyesV2小模型边看图边写代码；纯数据让AI长出立体眼

2025-11-1005:30

【周末特辑】11月第2周最火AI论文 | 视频生成即推理；SVG草图变代码

2025-11-0812:07

00:00

2025.11.24 | 开源7B模型刷新多模态推理；GeoVista小模型精准地理定位

#box-pro-ellipsis-176467761516255{-webkit-line-clamp:2;}2025.11.24 | 开源7B模型刷新多模态推理；GeoVista小模型精准地理定位

2025.11.24 | 开源7B模型刷新多模态推理；GeoVista小模型精准地理定位

2025.11.24 | 开源7B模型刷新多模态推理；GeoVista小模型精准地理定位